Una visión unificadora sobre la incertidumbre de recompensa en RLHF Descubre cómo la incertidumbre en RLHF se unifica con un modelo distribucional, mitigando el reward hacking. Clave para optimización robusta. 2026-06-16 · 2 min